比较

Bioestadística Aplicada Nivel Intermedio

Diferencia entre
Dos Muestras

Comparación de medias y proporciones de dos poblaciones independientes · Muestras grandes y pequeñas · Intervalos de confianza y pruebas de hipótesis

5.2 Diferencia entre medias de dos muestras— muestras grandes (Z) y pequeñas (t), varianza combinada s²p

5.4 Diferencia entre proporciones de dos muestras— intervalos de confianza y estadístico Z para p₁ − p₂

Ref.: Shafer, G. & Zhang, Z. (2012). Introductory Statistics. Saylor Academy. Capítulos 9.1, 9.2, 9.4.

🎯

Diapositiva 02 · Objetivos

Al terminar esta clase podrás…

1

Identificar muestras independientes y comprender el marco lógico para comparar los parámetros de dos poblaciones distintas.

2

Construir intervalos de confianza para μ₁ − μ₂ con muestras grandes (estadístico Z) usando la fórmula (x̄₁ − x̄₂) ± z · √(s₁²/n₁ + s₂²/n₂).

3

Aplicar la prueba t con varianza combinada (s²p) para comparar medias con muestras pequeñas cuando las poblaciones son normales con varianzas iguales.

4

Construir intervalos de confianza para p₁ − p₂ y realizar pruebas de hipótesis sobre la diferencia entre dos proporciones poblacionales.

5

Identificar el supuesto de independencia y reconocer cuándo NO es válido aplicar las fórmulas de dos muestras (ej. encuestas a la misma persona).

🏗️

Diapositiva 03 · Marco conceptual

Comparación de dos poblaciones — marco lógico

🎯 Idea central

Queremos comparar parámetros de dos poblaciones distintas. El estimador puntual de la diferencia μ₁ − μ₂ es simplemente x̄₁ − x̄₂. Las fórmulas de IC y prueba de hipótesis siguen la misma lógica que para una sola muestra, con un estadístico ajustado.

👥 Muestras independientes

Definición

Las muestras son independientes si cada una se extrae sin referencia a la otra y sin conexión entre sí. La muestra de la Población 1 no influye en la de la Población 2.

⚠️ Uso incorrecto común

En una encuesta donde la misma persona responde sobre dos candidatos (A y B), p̂A y p̂B NO provienen de muestras independientes. Las fórmulas de esta sección NO son válidas en ese caso.

📐 Estructura general de la comparación

Elemento	Población 1	Población 2
Parámetro	μ₁ (o p₁)	μ₂ (o p₂)
Tamaño de muestra	n₁	n₂
Media muestral	x̄₁	x̄₂
Desviación estándar	s₁	s₂
Estimador puntual	x̄₁ − x̄₂ (o p̂₁ − p̂₂)

Hipótesis nula general

H₀: μ₁ − μ₂ = D₀ (casi siempre D₀ = 0, que significa "no hay diferencia"). La hipótesis alternativa puede ser de cola izquierda, derecha o dos colas.

📏

Diapositiva 04 · Sección 5.2 — Muestras grandes

Diferencia de medias — muestras grandes (n₁ ≥ 30 y n₂ ≥ 30)

📐 Intervalo de confianza

IC 100(1−α)% para μ₁ − μ₂ — muestras grandes

(x̄₁ − x̄₂) ± z_α/2 · √(s₁²/n₁ + s₂²/n₂)

Condición: muestras independientes, n₁ ≥ 30 y n₂ ≥ 30. Si σ₁ y σ₂ son conocidas, usarlas en lugar de s₁ y s₂.

Estadístico Z para prueba de hipótesis

Z = [(x̄₁ − x̄₂) − D₀] / √(s₁²/n₁ + s₂²/n₂)

Sigue distribución normal estándar. D₀ es el valor de la hipótesis nula (usualmente 0).

📋 Formas de la hipótesis alternativa

Forma de Hₐ	Terminología
μ₁ − μ₂ < D₀	Cola izquierda
μ₁ − μ₂ > D₀	Cola derecha
μ₁ − μ₂ ≠ D₀	Dos colas

Clave de interpretación

El IC para μ₁ − μ₂ nos dice el rango plausible de la diferencia. Si el intervalo no contiene el 0, hay evidencia de que las medias son diferentes. Si contiene valores positivos y negativos, no podemos concluir cuál es mayor.

📡

Diapositiva 05 · Sección 5.2 — Ejemplo resuelto

Ejemplo: satisfacción de clientes de dos empresas

Datos del problema

Se compara la satisfacción (escala 1–5) de dos empresas de cable. Construye un IC al 99% para μ₁ − μ₂.

	Empresa 1	Empresa 2
n	174	355
x̄	3.51	3.24
s	0.51	0.52

1

Estimador puntual

x̄₁ − x̄₂ = 3.51 − 3.24 = 0.27 puntos

2

Valor crítico

Confianza 99% → α = 0.01 → z₀.₀₀₅ = 2.576

3

Margen de error

2.576 · √(0.51²/174 + 0.52²/355) = 0.12

Resultado — IC al 99%

0.27 ± 0.12 = [0.15, 0.39]

Con 99% de confianza, la diferencia μ₁ − μ₂ está entre 0.15 y 0.39 puntos.

💬

Interpretación en contexto

Somos 99% confiados de que la satisfacción promedio de la Empresa 1 es entre 0.15 y 0.39 puntos más alta que la de la Empresa 2, en la escala de 5 puntos. El intervalo es enteramente positivo → evidencia de que μ₁ > μ₂.

🔬

Diapositiva 06 · Sección 5.2 — Muestras pequeñas

Diferencia de medias — muestras pequeñas (distribución t)

Cuándo usar la distribución t

Si al menos una muestra tiene n < 30, el TCL no aplica. Se requiere que: (1) ambas poblaciones sean normalmente distribuidas y (2) tengan varianzas iguales (σ₁² = σ₂²).

⚙️ Varianza combinada (pooled)

Varianza combinada s²p

s²p = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁+n₂−2)

Promedio ponderado de s₁² y s₂². Grados de libertad: df = n₁ + n₂ − 2.

IC y estadístico T para muestras pequeñas

IC: (x̄₁−x̄₂) ± t_α/2 · √[s²p(1/n₁+1/n₂)]

T = [(x̄₁−x̄₂)−D₀] / √[s²p(1/n₁+1/n₂)]

T sigue distribución t de Student con df = n₁+n₂−2.

🆚 Comparación: Z vs. t

Característica	Muestras grandes (Z)	Muestras pequeñas (t)
Condición tamaño	n₁ ≥ 30 y n₂ ≥ 30	Al menos uno n < 30
Distribución popul.	Cualquiera (TCL)	Debe ser normal
Varianzas	No necesitan ser iguales	Deben ser iguales
Estadístico	Z → N(0,1)	T → t(n₁+n₂−2)
Varianza error	s₁²/n₁ + s₂²/n₂	s²p(1/n₁ + 1/n₂)

📦

Diapositiva 07 · Sección 5.2 — Ejemplo muestras pequeñas

Ejemplo: ventas por diseño de empaque (t)

Datos del problema

Diseño 1: n₁ = 11 tiendas, x̄₁ = 52 unidades, s₁ = 12 · Diseño 2: n₂ = 6 tiendas, x̄₂ = 46 unidades, s₂ = 10. Construye IC al 95% para μ₁ − μ₂.

1

Estimador puntual

x̄₁ − x̄₂ = 52 − 46 = 6 unidades

2

Valor crítico t

α = 0.05 → t₀.₀₂₅ con df = 11+6−2 = 15 → t = 2.131

3

Varianza combinada s²p

s²p = [(10)(144) + (5)(100)] / 15 = (1440+500)/15 = 129.3

4

Margen de error

2.131 · √[129.3 · (1/11 + 1/6)] = 2.131 · 5.77 ≈ 12.3

Resultado — IC al 95%

6 ± 12.3 = [−6.3, 18.3]

El intervalo contiene el 0 y valores positivos y negativos.

💬

Interpretación

Somos 95% confiados de que las ventas promedio del Diseño 1 son entre 18.3 unidades más altas y 6.3 unidades más bajas que las del Diseño 2. Como el intervalo contiene el 0, no hay evidencia estadística suficiente de que un diseño venda más que el otro.

🎲

Diapositiva 08 · Sección 5.4 — Idea central

5.4 Diferencia entre proporciones de dos muestras

🎲 Idea central

Queremos comparar la proporción de dos poblaciones que poseen una característica. El estimador puntual de p₁ − p₂ es p̂₁ − p̂₂. Para construir IC o pruebas de hipótesis, ambas muestras deben ser independientes y suficientemente grandes.

📐 Intervalo de confianza para p₁ − p₂

IC 100(1−α)% para p₁ − p₂

(p̂₁−p̂₂) ± z_α/2 · √[p̂₁(1−p̂₁)/n₁ + p̂₂(1−p̂₂)/n₂]

Condición de muestra grande: cada intervalo [p̂ᵢ ± 3√(p̂ᵢ(1−p̂ᵢ)/nᵢ)] debe estar dentro de [0,1].

📐 Estadístico Z para prueba de hipótesis

Prueba de hipótesis — H₀: p₁ − p₂ = D₀

Z = [(p̂₁−p̂₂) − D₀] / √[p̂₁(1−p̂₁)/n₁ + p̂₂(1−p̂₂)/n₂]

Z sigue distribución normal estándar. Las muestras deben ser independientes y grandes.

Nota importante

Las formas de la hipótesis alternativa son idénticas al caso de medias: cola izquierda (H₁: p₁−p₂ < D₀), cola derecha (H₁: p₁−p₂ > D₀) y dos colas (H₁: p₁−p₂ ≠ D₀).

🏗️

Diapositiva 09 · Sección 5.4 — Ejemplo resuelto

Ejemplo: tasa de aprobación en inspecciones de construcción

Datos del problema

Se publicaron registros de contratistas en internet. ¿Mejoró la tasa de aprobación en primera inspección? Construye un IC al 90% para p₁ − p₂.

	Sin acceso web	Con acceso web
n	500	100
p̂	0.67	0.80

1

Estimador puntual

p̂₁ − p̂₂ = 0.67 − 0.80 = −0.13

2

Verificar condición de normalidad

Muestra 1: 3√(0.67·0.33/500) = 0.06 → [0.61, 0.73] ⊂ [0,1] ✅
Muestra 2: 3√(0.80·0.20/100) = 0.12 → [0.68, 0.92] ⊂ [0,1] ✅

3

Valor crítico y margen

α = 0.10 → z₀.₀₅ = 1.645
Error = 1.645 · √(0.67·0.33/500 + 0.80·0.20/100) = 0.07

Resultado — IC al 90%

−0.13 ± 0.07 = [−0.20, −0.06]

El intervalo es completamente negativo (p₁ − p₂ < 0).

💬

Interpretación en contexto

Somos 90% confiados de que la proporción de proyectos que aprueban en primera inspección es entre 6 y 20 puntos porcentuales más alta después de la publicación en internet. El intervalo es enteramente negativo (p₁ < p₂), lo que confirma la mejora.

⚖️

Diapositiva 10 · Síntesis

Resumen: los cuatro casos de comparación de dos muestras

Caso	Parámetro	Condición	Estadístico	Supuestos adicionales
5.2a — Grandes	μ₁ − μ₂	n₁ ≥ 30 y n₂ ≥ 30	Z ~ N(0,1)	Muestras independientes
5.2b — Pequeñas	μ₁ − μ₂	Al menos uno n < 30	T ~ t(n₁+n₂−2)	Normales, σ₁² = σ₂²
5.4 — Proporciones	p₁ − p₂	Ambas muestras grandes	Z ~ N(0,1)	Independientes, cond. normalidad

Patrón común de todos los casos

Estimador puntual = diferencia de estadísticos muestrales
IC = estimador ± valor crítico × error estándar
Estadístico = (estimador − D₀) / error estándar
Interpretación: ¿contiene el IC el 0? ¿cuál población tiene mayor parámetro?

Error frecuente — no verificar independencia

Las fórmulas de esta sección son solo válidas cuando las dos muestras se extraen de forma completamente independiente. Si hay relación entre los individuos de las dos muestras (ej. mediciones antes/después en la misma persona), se deben usar métodos de muestras pareadas (t pareada).

✏️

Diapositiva 11 · Práctica

Ejercicio de comprensión

P1

Dos muestras independientes con n₁ = 50 y n₂ = 40. ¿Cuál estadístico corresponde para comparar medias?

a ✓ Z, porque ambas muestras son n ≥ 30
b t, porque se comparan dos muestras
c t si se desconoce σ, siempre

P2

En el caso de muestras pequeñas, ¿cuáles son los tres supuestos requeridos?

a n₁ = n₂, poblaciones normales, σ conocidas
b ✓ Al menos uno n < 30, poblaciones normales, σ₁² = σ₂²
c n₁ < 30 y n₂ < 30, media conocida, independencia

P3

¿Qué significa que el IC para μ₁ − μ₂ sea completamente positivo, como [0.15, 0.39]?

a No hay diferencia significativa entre las medias
b ✓ Hay evidencia de que μ₁ > μ₂ (la diferencia es positiva)
c La diferencia podría ser cero porque el intervalo no cubre valores negativos

P4

Si s₁ = 8, n₁ = 10 y s₂ = 6, n₂ = 12, ¿cuánto es s²p?

a (64 + 36)/2 = 50
b ✓ [(9)(64) + (11)(36)] / 20 = (576+396)/20 = 48.6
c √[(64/10) + (36/12)] = √9.4 ≈ 3.07

P5

En una encuesta política, a 1,000 personas se les pregunta si prefieren al Candidato A o al B. ¿Podemos usar las fórmulas de diferencia de proporciones para comparar p̂A y p̂B?

a Sí, porque la muestra es grande (n ≥ 30)
b ✓ No, porque p̂A y p̂B no provienen de muestras independientes — son de la misma persona
c Solo si se verifica la condición de normalidad de cada proporción

🏆

Diapositiva 12 · Actividad evaluable

Actividad: comparación entre dos grupos clínicos

🎯 Contexto clínico

Se compara la presión arterial sistólica (mmHg) entre hombres y mujeres adultos. Además, se compara la prevalencia de hipertensión entre ambos grupos. Tiempo: 30 min.

1️⃣

Muestras grandes — IC para μH − μM

Hombres: n₁ = 120, x̄₁ = 128 mmHg, s₁ = 14. Mujeres: n₂ = 95, x̄₂ = 122 mmHg, s₂ = 11. Construye un IC al 95% para la diferencia. ¿Hay evidencia de que los hombres tienen mayor presión?

2️⃣

Muestras pequeñas — t con varianza combinada

En un subgrupo de adultos mayores: n₁ = 12 hombres (x̄₁ = 145, s₁ = 18) y n₂ = 10 mujeres (x̄₂ = 138, s₂ = 15). Asumiendo normalidad e igualdad de varianzas, construye un IC al 90% para μH − μM. ¿Cuántos grados de libertad tiene el estadístico?

3️⃣

Diferencia de proporciones — p₁ − p₂

En la muestra grande, el 28% de los hombres (n₁ = 120) y el 18% de las mujeres (n₂ = 95) tienen hipertensión. Verifica la condición de normalidad para ambas muestras y construye un IC al 95% para pH − pM.

4️⃣

Interpretación integrada

Basándote en los IC calculados en los pasos 1 y 3, ¿qué puedes concluir sobre las diferencias de presión arterial e hipertensión entre hombres y mujeres? ¿Qué limitaciones tienen estas conclusiones?

Entregable

Resolución paso a paso con fórmulas, verificación de condiciones, cálculos numéricos e interpretación clínica de cada IC.

Criterios

Elección correcta de Z vs. t · Cálculo de s²p · Verificación de normalidad en proporciones · Interpretación en contexto biomédico

比较

✅ Clase completada

Ideas clave — Diferencia entre Dos Muestras

5.2a — Grandes (Z)

n₁ ≥ 30 y n₂ ≥ 30. IC: (x̄₁−x̄₂) ± z·√(s₁²/n₁+s₂²/n₂). Muestras independientes.

5.2b — Pequeñas (t)

Al menos uno n < 30. Requiere normalidad y σ₁² = σ₂². Usa s²p ponderada. df = n₁+n₂−2.

5.4 — Proporciones

IC: (p̂₁−p̂₂) ± z·√[p̂₁q̂₁/n₁+p̂₂q̂₂/n₂]. Verificar [p̂ ± 3σP̂] ⊂ [0,1] para cada muestra.

IC e hipótesis

IC completamente positivo → μ₁ > μ₂. Completamente negativo → μ₁ < μ₂. Contiene 0 → sin evidencia de diferencia.

⚠️ Independencia

Las fórmulas requieren muestras independientes. Misma persona respondiendo sobre dos opciones → NO independiente → usar muestras pareadas.

BIBLIOGRAFÍA

Shafer, G. & Zhang, Z. (2012). Introductory Statistics. Saylor Academy. Chapters 9.1, 9.2 & 9.4: Two-Sample Problems. Disponible en: saylordotorg.github.io/text_introductory-statistics